One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as an image. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters and a novel guided self-attention mechanism and which is jointly trained on both visual masking and MMT. We also release CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation dataset, composed of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results over strong text-only models on standard English-to-French benchmarks and outperforms these baselines and state-of-the-art MMT systems with a large margin on our contrastive test set.
translated by 谷歌翻译
Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.
translated by 谷歌翻译
强化学习(RL)和轨迹优化(TO)具有强大的互补优势。一方面,RL方法能够直接从数据中学习全球控制策略,但通常需要大型样本量以正确地收敛于可行的策略。另一方面,对方法能够利用从模拟器提取的基于梯度的信息,以快速收敛到局部最佳控制轨迹,该轨迹仅在解决方案附近有效。在过去的十年中,几种方法旨在充分结合两类方法,以获得两全其美的最佳选择。从这一研究开始,我们提出了这些方法的一些改进,以更快地学习全球控制政策,尤其是通过通过Sobolev学习来利用敏感性信息,并增强了Lagrangian技术来实施与政策学习之间的共识。我们通过与文献中的现有方法进行比较,评估了这些改进对机器人技术各种经典任务的好处。
translated by 谷歌翻译
在人类环境中,预计在简单的自然语言指导下,机器人将完成各种操纵任务。然而,机器人的操纵极具挑战性,因为它需要精细颗粒的运动控制,长期记忆以及对以前看不见的任务和环境的概括。为了应对这些挑战,我们提出了一种基于统一的变压器方法,该方法考虑了多个输入。特别是,我们的变压器体系结构集成了(i)自然语言指示和(ii)多视图场景观察,而(iii)跟踪观察和动作的完整历史。这种方法使历史和指示之间的学习依赖性可以使用多个视图提高操纵精度。我们评估我们的方法在具有挑战性的RLBench基准和现实世界机器人方面。值得注意的是,我们的方法扩展到74个不同的RLBench任务,并超越了最新的现状。我们还解决了指导条件的任务,并证明了对以前看不见的变化的出色概括。
translated by 谷歌翻译
在视觉和语言导航(VLN)中,按照自然语言指令在现实的3D环境中需要具体的代理。现有VLN方法的一个主要瓶颈是缺乏足够的培训数据,从而导致对看不见的环境的概括不令人满意。虽然通常会手动收集VLN数据,但这种方法很昂贵,并且可以防止可扩展性。在这项工作中,我们通过建议从HM3D自动创建900个未标记的3D建筑物的大规模VLN数据集来解决数据稀缺问题。我们为每个建筑物生成一个导航图,并通过交叉视图一致性从2D传输对象预测,从2D传输伪3D对象标签。然后,我们使用伪对象标签来微调一个预处理的语言模型,作为减轻教学生成中跨模式差距的提示。在导航环境和说明方面,我们生成的HM3D-AUTOVLN数据集是比现有VLN数据集大的数量级。我们通过实验表明,HM3D-AUTOVLN显着提高了所得VLN模型的概括能力。在SPL指标上,我们的方法分别在Reverie和DataSet的看不见的验证分裂分别对艺术的状态提高了7.1%和8.1%。
translated by 谷歌翻译
最近的工作取得了令人印象深刻的进展,从单眼颜色图像中联合重建手和操纵物体。现有的方法着重于两个替代表示,以参数网格或签名的距离字段(SDF)。一方面,参数模型可以以有限的形状变形和网格分辨率的成本从先验知识中受益。因此,网格模型可能无法精确地重建细节,例如手和物体的接触表面。另一方面,基于SDF的方法可以代表任意细节,但缺乏明确的先验。在这项工作中,我们旨在使用参数表示提供的PRIOR来改善SDF模型。特别是,我们提出了一个联合学习框架,该框架可以解散姿势和形状。我们从参数模型中获取手和对象摆姿势,并使用它们在3D空间中对齐SDF。我们表明,这种对齐的SDF可以更好地专注于重建形状细节,并提高手和物体的重建精度。我们评估了我们的方法,并在挑战性的OBMAN和DEXYCB基准方面证明了对最新技术的显着改善。
translated by 谷歌翻译
在过去的几年中,按照可区分的编程范式,人们对计算物理过程的梯度信息(例如,物理模拟,图像渲染)的梯度越来越兴趣。但是,此类过程可能是不可差异的,也可能产生非信息性梯度(I.D.几乎到处都是无效的)。当面对以前的陷阱时,通过分析表达或数值技术(例如自动分化和有限差异)估算的梯度使经典优化方案融合到质量较差的解决方案中。因此,仅依靠这些梯度提供的本地信息通常不足以解决涉及此类物理过程的高级优化问题,尤其是当它们受到非平滑度和不稳定性问题的影响。零订单优化,我们通过估计邻域中的梯度来利用随机平滑来增强可微分的物理。我们的实验表明,在优化算法中整合这种方法可能对像网格重建的任务相似,从图像或对机器人系统的最佳控制也有所不同。
translated by 谷歌翻译
视频问题回答(VideoQA)是一项复杂的任务,需要多种模式数据进行培训。但是,对视频的问题和答案的手动注释是乏味的,禁止可扩展性。为了解决这个问题,最近的方法考虑了零拍设置,而无需手动注释视觉问题。特别是,一种有前途的方法调整了在网络级文本数据中预测的冻结自回归语言模型,以适应多模式输入。相比之下,我们在这里建立在冷冻双向语言模型(BILM)的基础上,并表明这种方法为零拍出的VideoQA提供了更强大,更便宜的替代方案。特别是(i)我们使用轻型训练模块将视觉输入与冷冻的BILM结合在一起,(ii)我们使用Web-Scrafe Multi-Mododal数据训练此类模块,最后(iii)我们通过掩盖语言执行零声录像带推断建模,其中蒙版文本是给定问题的答案。我们提出的方法Frozenbilm在零摄影的视频中的表现优于最高的,包括LSMDC-FIB,包括LSMDC-FIB,IVQA,MSRVTT-QA,MSVD-QA,ActivityNet-QA,TGIF-FRAMEQA,TGIF-FRAMEQA,,TGIF-FRAMEQA,,TGIF-FRAMEQA,,,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,MSRVTT-QA,,均优于最新技术。 How2QA和TVQA。它还在几次且完全监督的环境中展示了竞争性能。我们的代码和模型将在https://antoyang.github.io/frozenbilm.html上公开提供。
translated by 谷歌翻译
我们考虑在与给定文本查询相对应的视频中定位时空管的问题。这是一项具有挑战性的任务,需要对时间,空间和多模式相互作用进行联合有效的建模。为了解决此任务,我们提出了TubedEtr,这是一种基于变压器的体系结构,灵感来自此类模型在文本条件条件的对象检测中的最新成功。我们的模型特别包括:(i)有效的视频和文本编码器,该视频和文本编码器对稀疏采样帧进行了空间多模式相互作用,以及(ii)共同执行时空定位的时空解码器。我们通过广泛的消融研究证明了我们提出的组件的优势。我们还在时空视频接地任务上评估了我们的完整方法,并在具有挑战性的VIDSTG和HC-STVG基准方面证明了对最新技术的改进。代码和训练有素的模型可在https://antoyang.github.io/tubedetr.html上公开获得。
translated by 谷歌翻译
大规模数据集的预培训模型,如想象成,是计算机视觉中的标准实践。此范例对于具有小型培训套的任务特别有效,其中高容量模型往往会过度装备。在这项工作中,我们考虑一个自我监督的预训练场景,只能利用目标任务数据。我们考虑数据集,如斯坦福汽车,草图或可可,这是比想象成小的数量的顺序。我们的研究表明,在本文中介绍的Beit或诸如Beit或Variant的去噪对预训练数据的类型和大小比通过比较图像嵌入来训练的流行自我监督方法更加强大。我们获得了竞争性能与ImageNet预训练相比,来自不同域的各种分类数据集。在Coco上,当专注于使用Coco Images进行预训练时,检测和实例分割性能超过了可比设置中的监督Imagenet预训练。
translated by 谷歌翻译